Optimizador Muon: Límite de Convergencia y Tamaño de Lote Crítico
El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.
El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.